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[ 目的 /意义 ] 在 “新 冠 " 疫情 这 类 突 发 公共 卫生 事件 中 ,网 络 社交 媒体 上 迅速 产生 大 量 关 于 疫情 的 言论 ,其 中 包含 
不 少 蓄意 传播 的 谣言 ,不 仅 危 害 公 众 心 理 健康 ,而 且 会 影响 应 对 公共 卫生 事件 的 方案 实施 。 识 别 突 发 公共 卫生 事 
件 的 谣言 能 够 使 民众 正确 面 对 危 机 ,为 社会 安定 、 网 络 治 理 起 到 积极 的 维护 作用 。 |[ 方法/ 过程] 首先 对 采集 到 的 
疫情 期 间 已 被 证 实 的 谣言 进行 深度 分 析 ,提取 谣 言 文本 的 主要 特征 ,包括 上 下 文 特征 话题 类 别 特征 情感 程 度 特 
征 、 关 键 词 特征 等 ;然后 针对 文本 分 类 模型 中 的 文本 特征 表达 较为 单一 的 问题 ,利用 不 同 的 模型 对 提取 的 谣言 文 
本 特征 进行 向 量化 ,并 对 各 类 文本 特征 进行 加 强 和 融合 。 其 中 通过 TF-IDF 计算 的 词 向 量 权重 在 捕获 上 下 文 特征 
的 同时 ,能 够 加 强 词 粒 度 的 关键 词 特征 信息 。 最 后 ,使 用 BiLSTM + DNN 模型 对 融合 的 特征 向 量 进 行 分 类 判别 。 
[ 结果 /结论 ] 实验 结果 表明 ,话题 类 别 、 情 感 程度 等 特征 对 谣言 识别 均 有 贡献 ,特别 是 经 过 强化 后 的 词 向 量 与 其 他 
特征 融合 后 对 识别 准确 率 有 明显 提升 ,召回 率 、Fl 值 等 指标 均 达 到 90% 以 上 ,效果 超过 其 他 的 谣言 识别 模型 ,说 
明 笔 者 所 构建 的 方法 能 够 很 好 地 实现 对 突 发 公共 卫生 事件 背景 下 的 谣言 识别 。 
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公共 卫生 事件 中 起 着 信息 传播 和 舆情 引导 的 重要 作 
用 ,但 也 是 网 络 谣言 滋生 和 扩散 的 途径 。 话 言 在 微 博 


> 根 据 ( 突 发 公共 卫生 事件 应 急 条 例 》 趾 , 突 发 公 
了 事件 定义 为 突然 发 生 ` 造 成 或 者 可 能 造成 社会 
众 健康 严重 损害 的 重大 传染 病 疫情 .群体 性 不 明 原因 


S 


上 曝光 度 大 ,其 传播 比 微 信 、 论 坛 等 网 络 媒体 范围 更 
广 、 迷 惑 性 更 大 、 影 响 程度 更 深 ,因此 笔者 将 研究 范围 
聚焦 在 微 博 平 台 上 的 谣言 ,其 中 如 何 从 公共 卫生 事件 
的 谣言 中 提取 有 效 特征 尤其 是 内 容 特征 对 谣言 识别 起 
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与 之 伴随 的 是 在 微 博 、 微 信 等 社交 媒体 中 引发 的 大 量 
网 络 谣言 ,这 些 谣言 的 传播 给 公众 心理 稳定 以 及 政府 
治理 造成 较 大 的 阻碍 ,对 社会 安定 和 民生 保障 构成 巨 
大 威胁 。 例 如 在 新 冠 疫情 初期 “只 有 N95 口罩 具有 
防疫 功效 "的 网 络 谣言 误导 群众 大 量 抢购 围 积 N95 口 
畦 ,严重 影响 了 公众 对 病毒 的 正常 防范 。 因 此 , 突 发 公 
共 卫 生 事件 中 的 谣言 识别 紧迫 且 重要 。 然 而 ,由 于 此 
Je Fotos Me nas .关注 程度 高 等 特殊 性 
质 , 使 其 识别 难度 较 大 。 

微 博 是 我 国 言论 传播 最 广泛 的 平台 之 一 ,在 突 发 


到 关键 作用 ”。 针 对 微 博 的 特征 提取 ,不 同 研究 视角 
关注 的 特征 均 有 差异 ,现在 较 多 的 研究 聚集 在 内 容 特 
征 和 用 户 特征 上 。 内 容 特征 关注 微 博 言论 的 上 下 文 特 
征 .语义 特征 、 多 媒体 特征 等 ;用 户 特 征 则 关注 用 户 的 
行为 影响 力 等 特征 。 由 于 突 发 公共 卫生 事件 的 特殊 
性 ,笔者 将 重点 关注 微 博文 本 的 内 容 特 征 , 在 分 析 突 发 
公共 卫生 事件 下 微 博文 本 与 平时 文本 差异 的 基础 上 ， 
使 用 不 同 的 文本 特征 描述 方法 ,从 不 同 的 角度 分 析 和 
提取 微 博 谣言 的 文本 特征 ,然后 将 各 种 特征 进行 融合 ， 
构建 有 效 的 突 发 公共 卫生 事件 下 的 微 博 谣言 检测 模 
型 。 
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2 相关 工作 


归 单 元 (D-Bi-CRU ) 的 谣言 检测 方法 ,通过 捕获 微 博 流 
的 前 向 和 后 向 上 下 文 特征 ,获取 随 微 博 事件 群体 响应 


关于 谣言 识别 的 研究 ,大 多 从 两 个 角度 展开 :谣言 
特征 提取 和 识别 算法 设计 ,多 数 研 究 关 注 如 何 从 谣言 
数据 中 提取 有 效 的 特征 ,一 部 分 则 关注 识别 谣言 的 分 
类 算法 。 

在 谣言 特征 方面 的 研究 中 ,最 早 来 源 于 C. Castillo 
等 人 ”评估 Twitter 上 的 新 闻 可 信 程 度 ,所 提取 的 68 个 
特征 涵盖 消息 基本 特征 .用户 特 征 .话题 特征 以 及 传播 
寺 征 。 之 后 F.， Yang 557 使 用 微 博 谣言 数据 ,提出 两 
个 新 的 特征 :用 户 使 用 的 客户 端 以 及 事件 发 生 的 地 理 
位 置 ; 贺 刚 等 中 提出 一 系列 新 的 特征 ,包括 符号 特征 、 
链接 特征 . 词 频 分 布 特征 和 时 间 差 等 ,并 与 微 博文 本 特 


信息 ; 王 星 宇 "构建 了 3 个 深层 特征 ,加 入 到 基本 的 
浅 层 特征 中 ,其 中 两 个 深层 特征 为 Doc2vec 构建 的 微 
博 内 容 句子 向 量 , 以 及 Snownlp 情感 分 析 库 计算 得 到 
的 情感 两 极 分 化 程度 ; 刘 勘 等 "将 迁移 学 习 应 用 到 
Twitter 谣言 检测 中 ;G，Siva 等 "构建 了 虚假 新 闻 的 
特征 ,然后 基于 图 的 特征 向 量 学 习 和 标签 扩展 算法 进 
行 无 指导 学 习 ; 而 TF，Marra 等 "1 则 利用 对 抗 生 成 网 络 
识别 社交 网 络 中 的 虚假 图 片 ;类 似 地 ,F，Qian 等 ' 将 
文本 生成 技术 应 用 到 虚假 新 闻 识别 中 ,对 新 发 生 的 新 
闻 利 用 生成 器 产生 针对 此 新 闻 的 评论 来 判断 其 真 伪 。 


征 妆 用 户 特征 结合 ; 夏 松 等 “通过 一 种 新 设计 的 抽 词 
算 肖 构建 敏感 词 库 ,在 微 博 内 容 特 征 、 用 户 行为 特征 等 
基带 特征 中 加 入 敏感 词 特征 使 语言 识别 准确 率 有 明显 
提 界 ; 李 钢 等 ”提出 基于 受众 年 龄 的 新 型 谣言 传播 包 
焰 面 社交 网 络 , 从 受众 的 认 知 能 力 、 匿 名 程度 ,权威 性 
等 基本 特征 ,以 及 受众 的 从 众 心理 .记忆 效应 ` 好 友 台 
影响 作用 等 心理 特征 方面 对 受众 进行 画像 ,构建 多 维 
庶 晒 数 实现 基于 受众 画像 的 谣言 传播 模型 。 


〇 亡 言 的 时 间 序 列 特征 也 倍 受 关注 。S，Kwon 等 “ 


谣言 识别 研究 并 不 多 。 樊 荣 等 ”在 微 博 平 台 上 选取 
2016 年 “山东 非法 疫苗 事件 ”以 及 “ 米 脂 三 中 伤 人 事 
件 ” 相 关 谣 言 文本 ,构建 基于 用 户 娱 情 历 史 文 本 、 谣 言 
关注 度 . 微 博 频 率 的 R-CNN 识别 模型 ;曾子 明 等 ”使 
用 LDA 主题 模型 和 随机 和 森林 算法 对 2016 ^E25 S81 d 
进行 了 检测 ; 王 林 等 ” 基于 ELM TAM 模型 以 及 生命 
周期 理论 ,使 用 信息 内 容 、 发 布 日 期 .发布 者 认证 类 型 
等 特征 变量 建立 突 发 公共 卫生 事件 与 情 传 播 影响 因素 
模型 ; 李 丽 华 等 ”选取 2017 年 英国 5 起 暴 恐 袭击 事件 


首 演 指出 谣言 事件 传播 过 程 中 时 间 属 性 的 重要 性 , 通 
过 研究 时 间 .结构 .语言 3 个 方面 的 传播 特性 来 确定 谣 
训 疗 特征 ,然后 构建 随机 森林 分 类 器 ;J，Ma 等 在 S. 
Kwon 的 基础 上 ,进一步 扩展 了 随时 间 变 化 的 特征 集 
合 -利用 简单 的 等 长 时 间 序列 划分 来 观察 谣言 事件 特 
征 硅 时 间 的 变化 ,这 个 时 间 序 列 的 建 模 技术 被 应 用 于 
整合 各 种 社交 语 境 信息 ; 王 志 宏 等 ”为 了 更 好 地 观察 
和 表示 语言 事件 特征 随时 间 的 变化 ,引入 模糊 时 间 序 
列 模型 中 的 论 域 划分 思想 ,将 事件 的 时 间 跨 度 作为 论 


为 研究 案例 ,在 Twitter 的 与 情 数据 集 上 ,对 与 情 传播 
主体 .信息 内 容 特征 以 及 传播 特征 进行 分 析 ,研究 相关 
谣言 的 传播 特点 及 机 制 。 

综合 来 看 ,在 谣言 识别 的 特征 提取 方面 往往 来 自 
研究 者 的 专门 设计 , 且 大 部 分 谣言 聚焦 在 常规 情景 下 。 
而 在 识别 算法 方面 ,基于 深度 学 习 网 络 的 衣 言 识别 需 
要 大 量 的 训练 数据 。 针 对 突 发 公共 卫生 事件 这 类 特定 
领域 的 谣言 识别 ,需要 研究 和 提取 话题 内 容 . 语 言 特 
征 、 情 感 极 性 等 符合 公共 卫生 事件 背景 要 求 的 特有 特 


域 , 提 出 了 基于 模糊 聚 类 的 事件 时 序数 据 动态 划分 算 
法 ,并 在 此 基础 上 构建 了 随时 间 变 化 的 时 间 特 征集 合 ; 
M. Kotteti 45 ^ 提 出 了 一 个 多 时 间 序 列 数据 分 析 模 型 
来 检测 Twitter 上 的 谣言 ,所 提出 的 方法 仅 使 用 推 文 的 
时 间 特 性 来 代替 检查 推 文 的 内 容 , 这 使 得 计算 复杂 度 
大 大 降低 ,从 而 可 以 快速 检测 谣言 。 

在 谣言 识别 算法 方面 ,除了 传统 的 逻辑 回归 、 文 持 
向 量 机 随机 森林 等 机 器 学 习 技术 , 越 来 越 多 的 研究 人 
员 使 用 深度 学 习 模型 进行 谣言 检测 。J. Ma 等 "利用 
递归 神经 网 络 模型 对 上 下 文 提取 的 优势 分 析 某 一 话题 
前 后 帖子 的 联系 ,以 减少 无 价值 帖子 对 谣言 鉴别 结 


c 


征 。 同 时 ,不同 特 征 之 间 的 融合 也 将 对 谣言 识别 起 到 
较 大 作用 。 因 此 ,笔者 将 设计 和 提取 多 个 谣言 文本 的 
内 容 特 征 , 并 探讨 其 有 效 的 融合 方法 ,构建 特定 突 发 公 
共 卫 生 事件 下 的 谣言 识别 模型 。 


3 _” 微 博 谣 言 的 特征 分 析 


3.1 谣言 数据 来 源 

笔者 以 突 发 新 型 冠状 病毒 肺炎 疫情 为 例 ,从 微 博 
社区 管理 中 心 的 微 博 尽 谣 官 方 账 号 中 收集 已 经 被 证 实 
为 谣言 的 数据 ,时 间 段 为 疫情 爆发 以 来 谣言 较为 集中 
的 前 4 个 月 , 即 2020 年 1 月 1 日 到 4 月 30 日 内 的 有 关 


D 


的 影响 ;L. Li 45 提出 了 一 种 基于 深度 双向 门 控 递 


疫情 谣言 的 微 博 , 共 计 730 条 。 由 于 很 多 微 博 消息 看 
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清 报 工作 ,2021 ,65(13 ) :87 - 95. 


起 来 可 信 度 不 高 ,但 是 真正 被 证 实 和 辟谣 的 信息 并 不 
多 ,这 说 明 人 工 尽 谣 是 一 件 非常 困难 和 耗 时 的 事情 ,这 
也 导致 可 用 的 标注 数据 大 大 减少 ,限制 了 深度 学 习 模 
型 的 使 用 ,因此 研究 重点 为 谣言 的 特征 提取 和 特征 融 
合 。 作 为 对 比 并 考虑 到 数据 平衡 的 问题 ,笔者 另外 通 
过 随机 采集 和 人 工 筛 选 的 方式 得 到 了 疫情 期 间 被 证 实 


xe 


微 博 辟 谣 Vi 
2020-2-29 22:03 来 自 微 博 weibo.com 
THES ERES 网 传 ' 益 阳 确 定 一 例 ， 传 播 者 传 给 爷 苑 ， 并 造成 790 人 接触 " 系 谣言 


@ 益 阳 市 公安 局 V. it 

MONIBBHEA 【网 传 益 阳 确 定 一 例 ， 传 播 者 传 给 爷爷 ， 并 造成 790 人 接触 系 谣言 钥 E31 2 月 29 
日 ， 部 分 微 信 群 、 朋 友 贺 传 言 ' 今 天 凌晨 三 点 益阳 确定 一 例 ， 传 播 者 为 武汉 大 学 学 生 ， 传 给 了 区 
爷 ， 已 造成 790 人 接触， 已 隔离 672 人 ，118 人 还 未 找到 。" 经 核实 ， 该 信息 为 谣言 ， 系 相关 疫情 
信息 剪辑 混合 、 移 花 接 木 .展开 全 文 ~ 


(a) 网 络 谣言 样 例 


的 非 谣言 微 博 数据 1 400 条 ,这 些 数据 取 自 新 华 网 、 人 
民 网 .央视 网 等 官方 微 博 , 以 保证 其 真实 有 效 。 数 据 采 
集 使 用 selenium 模拟 浏览 器 获取 网 页 信息 ,通过 Beau- 
tifulSoup 解析 网 页 内 容 , 最 后 用 正则 表达 式 与 find. PR 
数 匹配 所 需 字 段 。 图 1 显示 了 采集 数据 的 样 例 。 
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央视 网 V t 
2020-2-29 20:00 来 自 微 博 weibo.com 已 编辑 
[# 南 开 大 学 发 放流 量 补贴 #， 所 有 学 生 都 有 份 】 为 保障 学 生 疲 情 期 线 上 学 习 、 线 

上 求职 ，@ 南 开 大 学 决定 向 全 校 29819 名 学 生 (包括 本 科 生 和 硕士 、 博 士 研究 
生 ) 以 现金 形式 向 银行 卡 发 放 每 人 100 元 专项 补助 ， 用 于 补贴 疫情 防 控 期 间 网 络 流 
JH. 网友: 又 是 别人 家 的 大 学 仿 


(b) 非 谣言 样 例 


图 1 疫情 期 间 的 谣言 和 非 谣 言 数据 
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3.2 疫情 谣言 文本 分 析 
0D 突 发 公共 卫生 事件 与 一 般 类 型 事件 的 网 络 与 情 比 
较 而 言 , 除 具备 网 络 与 情 突 发 性 直接 性 .互动 性 .即时 
性 鳍 一般 特 征 外 ,还 具有 公众 参与 度 高 、 负 面 倾向 性 
ARAA DRIAN 看 多 等 独 有 的 特征 ,其 中 有 
交 祯 博 的 文本 特征 主要 表现 在 以 下 几 个 方面 : 
CD(1) 谣 言词 云 。 根 据 谣言 文本 绘制 了 如 图 2 所 示 
T ENTE Jg" WI" " D SE" Hp" "OPE" 
5 anii Jy de H. He Je TE EPA REIN S RAN 
最 主机 的 关注 点 就 落 到 疾病 及 民生 问题 上 。 有 关 人 民 
履 三 安全 .衣食 保障 、 出 行 途径 .开学 复工 的 消息 成 为 
大 聚 最 愿意 获取 的 内 容 。 造 谣 者 深 说 民众 所 想 ,往往 
顺 肚 民众 心理 发 布 相关 谣言 ,用 以 带 来 较 大 的 关注 ,如 
i igi 新 冠 肺 炎 ,病毒 传播 途径 、 公 共 交 
通 出 行 等 。 而 且 通 常 具有 一 些 固定 的 句 式 ,例如 *… 是 
`, 望 周知 ”“ 只 有 … 才 能 … ,切记 切记 ”。 这 些 言 论 常 
常 危 言 息 听 ,利用 特定 背景 下 民众 高 关注 度 的 特点 , 形 
成 舆论 导向 性 。 


T Ob 


m 


RATS 小 学 


~ 开学 Ef: LOC. 类 


HAX iz mi 
2S i LELE ti 
3 


nha 去 世 进 站 相当 于 家 里 村 


3 Us 疫情 i TH 抢救 2i 
x RIT "s “救护 车 生机 过 医院 


H2 疫情 谣言 词 云图 


《2) 词 频 特 征 。 微 博 疫 情 谣言 中 的 词语 出 现 的 频 
次 如 表 1 左 半 所 示 , 其 中 呈现 一 定 的 规律 。 有 关 “ 极 ” 
“非常 "等 程度 词语 有 关 “ 重 大 ”"“ 重 要 ”的 词语 .有关 


“— E “FH” Fa k ,这 类 词语 往往 看 
起 来 更 有 紧迫 感 。 有 关 突 发 公共 卫生 事件 的 标志 
— “预防 “医院 “专家 “酒精 "等 频 
繁 出 现 。 作 为 对 比 , 表 1 右 半 部 分 显示 了 非 谣 言 的 高 
频 词 ,其 中 "近日 “回应 ”实施 "等 词语 较为 正式 , 夸 
张 的 程度 副词 几乎 不 出 现 。 
表 1 疫情 谣言 和 非 谣言 的 高 频 词 
谣言 高 频 词 ES Tu 
词语 ” 词 频 ”词语 词 频 ”词语 词 频 词语 词 频 
不 要 48 医院 60 说 138 近日 283 
重 …… 44 消毒 34 称 76 RÆ 22 


极 28 酒精 27 回应 42 视频 213 


(3 ) 关 键 词 特征 。 为 了 进一步 分 析 谣言 文本 的 用 
词 特征 ,使 用 TF-IDF(Term Frequency-Inverse Document 
Frequency，TF-IDF ) 方 法 计算 各 个 词 在 不 同 谣言 中 的 
权重 ,从 而 反映 出 这 些 词 的 关键 性 。 对 疫情 谣言 进行 
TF-IDF 计算 后 ,得 到 的 关键 词 如 表 2 左 半 所 示 , 其 中 关 
于 中 国 、 美 国武 汉 、 封 城 、 医 疗 、 医 院 , 疫 情 、 肺 炎 等 关 
键 词 的 谣言 最 为 突出 。 在 表 2 右 半 所 示 的 非 谣言 的 文 
本 中 ,直播 新 闻 、 发 布 .生活 、 健 康 、 资 讯 等 关键 词 较为 
突出 ,主要 集中 在 日 常 的 信息 资讯 。 

(4) 主题 特征 。 笔 者 利用 LDA 主题 模型 提取 微 博 
谣言 文本 的 主题 特征 ,使 用 主题 向 量 结构 相似 度 最 小 
化 方法 ”确定 主题 个 数 为 7, 最终 提 取出 的 主题 向 量 
如 表 3 所 示 , 其 中 主要 包括 疾病 防治 .灾害 救助 .政策 
解读 、 人 物 聚 焦 、 民 生 保 障 \ 疫 情 动 态 .科普 知识 7 KE 
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表 2 疫情 谣言 关键 词 


疫情 谣言 关键 词 非 疫情 谣言 关键 词 

词语 ”权重 词语 ”权重 ”词语 权重 词语 权重 
美国 ”18.22 H% — 8.80 H 25.98 事故 9.20 
中 国 13.85 ”医院 8.66 ”新闻 24.73 Æl 8.34 
医疗 13.43 日 本 8.21 孩子 20.61 全球 5.92 
疫情 10.45 俄罗斯 8.16 网友 14.4] 资讯 5.34 
AAE 10.16 — dj 7.90 发布 10.90 健康 5.24 

学 9.71 WEE 7.82 国家 9.96 希望 4.17 
武汉 9.44 00H 关注 9.83 Oe 06e 


题 。 在 这 些 主题 中 ,疾病 防治 .灾害 救助 和 民生 保障 等 
都 是 一 直 伴随 各 类 公共 卫生 事件 的 主题 。 而 如 “ 钟 南 
山 :确诊 病例 中 没有 素食 者 “ 李 兰 娟 说 谈 恋爱 可 以 预 
防 新 冠 肺炎 ”等 聚焦 人 物 的 谣言 ;如 *XX 地 马上 也 要 
封 焉 “政府 将 用 飞机 喷 酒 消 杀 药物 ”等 对 政策 曲解 的 
谣 窒 ;如 “吹风 机 吹 口罩 可 消毒 “空调 开 到 20% 病毒 
就 会 死亡 "等 看 似 科普 的 谣言 ,都 与 新 冠 这 样 的 特定 事 
件 颇 密 联 系 ,也 是 民众 最 关心 的 主题 ,谣言 传播 者 正 是 
利用 这 些 主题 迷惑 大 众 。 

| 表 3 疫情 谣言 主题 词汇 统计 


i 词 1 词 2 词 3 词 4 ijs 
Cinn 设施 抢救 医疗 病毒 聚集 
Cg dcn 药物 BMO 支援 UH 无 偿 
违法 公布 复工 调任 解 封 
英雄 Lr 医生 行程 重症 


交通 AR 快速 PRO ”消毒 
美国 «mk 4 
药品 E 降低 视频 nn 


-加 (G5) 情 感 特征 。 谣 言 的 情感 往往 比 正 常言 论 更 加 
强烈 和 丰富 ,笔者 使 用 知 网 情感 分 析 用 词语 集 对 谣言 
语句 的 情感 进行 分 析 , 使 用 谣言 及 非 谣言 样本 各 730 
条 ,得 到 谣言 情感 得 分 的 分 布 图 ,如 图 3 所 示 。 情 感 得 
分 在 0 到 1 之 间 , 接 近 1 表示 正面 情绪 ,接近 0 则 为 负 
面 情绪 。 可 以 发 现 热 点 事件 的 情感 具有 明显 的 情绪 化 
村 点 ,集中 在 两 端 分 布 。 且 相 比 于 正常 言论 中 正面 情 
绪 绝对 的 主导 地 位 ,谣言 负面 情绪 的 占 比 增加 显著 ,已 
接近 正面 情绪 的 水 平 。 


4 ”模型 构建 


4.1 基本 思 

笔者 将 设计 和 提取 多 个 谣言 文本 的 内 容 特 征 , 探 
讨 有 效 的 融合 方法 ,并 构建 基于 特定 突 发 公共 卫生 事 
件 下 的 谣言 识别 模型 。 通 过 多 组 对 比 实验 ,观察 以 往 
方法 和 笔者 提出 的 方法 在 微 博 谣言 数据 集 上 的 效果 ， 


miruth Orumor 


100 
0 mmi | wl | m| | ml | 


[0.0.17]. [0.17,0.33] [0.33,0.5] [0.5,0.67] [0.67,0.83] [0.83,1] 
文本 情感 得 分 
图 3 谣言 情感 得 分 的 分 布 图 
rumor 为 谣言 分 布 ,truth 为 非 谣言 分 布 


并 对 比 不 同 特征 组 合 后 模型 的 分 类 性 能 。 

针对 上 节 分 析 的 罕 发 公共 卫生 事件 下 的 微 博 谣 言 
文本 特征 ,笔者 将 重点 利用 主题 类 别 特征 、 情 感 特征 以 
及 关键 词 特征 来 进行 谣言 识别 ,其 中 关键 词 权重 计算 
时 包含 了 词 频 特 征 。 不 同 角度 的 特征 可 以 相互 补充 ， 
然后 将 各 种 特征 向 量化 转换 并 进行 特征 融合 ,构建 谣 
言 的 识别 模型 。 融 合 过 程 包 括 对 关键 词 特征 进行 文本 
增强 ,以 及 与 主题 特征 、 情 感 特征 进行 拼接 ,最 后 通过 
深度 学 习 网 络 进行 是 否 为 谣言 的 类 别 判 别 。 

4.2. 模型 过 程 

构建 的 谣言 识别 模型 如 图 4 所 示 , 包 含有 基础 特 
征 提取 层 ,特征 融合 层 和 分 类 判别 层 。 基 础 特征 提取 
层 首先 对 输入 的 文本 进行 分 词 和 去 停 用 词 的 预 处 理 ， 
之 后 使 用 训练 好 的 模型 对 输入 的 文本 进行 基础 特征 的 
计算 ,包括 用 Word2Vec 模型 计算 的 词 向 量 语 义 特征 、 
利用 TF-IDF 计算 的 关键 词 特征 ( 身 ) 、 利 用 LDA 模型 
计算 的 主题 特征 ( 亿 ) 和 基于 情感 词典 计算 的 情感 特征 
(名 )。 特 征 融 合 层 包括 两 个 部 分 :利用 关键 词 权重 
对 词 向 量 进行 强化 ,突出 关键 词 的 权重 ;@@ 将 各 类 特征 
串联 拼接 在 一 起 ,得 到 最 终 的 融合 特征 向 量 。 分 类 判 
别 层 采用 长 短期 记忆 神经 网 络 (Bi-directional Long 
Short-Term Memory, BiLSTM ) 和 深度 神经 网 络 (Deep 
Neural Networks, DNN) 对 拼接 后 的 特征 向 量 进行 分 类 
训练 ,最 终 并 输出 类 别 标签 。 

(1) 关 键 词 增强 。 词 向 量 特征 是 文本 特征 的 重要 
内 容 , 在 整个 识别 模型 中 的 重要 一 步 也 是 对 关键 词 向 
量 的 加 权 增 强 。 在 数据 预 训练 时 采用 Word2Vec 算法 
计算 得 到 的 词 向 量 可 以 较 好 地 提取 文本 的 上 下 文 特 
征 ,但 此 时 的 词 向 量 重 点 不 够 突出 ,难以 反映 语句 中 的 
核心 词语 。 将 利用 TF-IDF 计算 的 权重 特征 加 入 ,可 以 
强化 关键 词 的 向 量 权重 ,使 词 向 量 重点 突出 ,更 好 地 体 
现 文 本 特征 。 利 用 TF-IDF 权重 对 词 向 量 进行 强化 的 
流程 见 图 5。 
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BiLSTM+DNN 
广 分 类 判别 
Le2000666600000000] li 
|L ”特征 融合 
090000000 ICIIIIIIIJ (00000000 特征 融合 
fi | f2 f3 
80000000) x [60000000 
i | J 
word2vec TF-IDF | LDA | | emotion | 
[- 基础 特征 提取 
text 


图 4 多 特征 融合 的 谣言 识别 模型 


提取 文档 中 所 有 词 的 
TF-IDF 权 重 以 及 词 向 量 


一 


Q 


(00000000) 
(00000000) 


(00000000) 


文档 中 的 词 向 量 与 其 


对 应 词 的 TF_IDF 相 乘 得 到 最 终 强 化 后 的 词 向 量 


E 


3202304.00564v1 
Ij 


中 , 设 文 档 集 为 D, 用 d, 表示 其 中 的 一 篇 经 
un uec 的 文档 ;用 W 表示 该 文档 集 


图 5 TF-IDF 强化 词 向 量 的 过 程 


型 。 
(3) 谣 言 判别 模型 。 特 征 融 合 之 后 就 可 以 构建 分 
类 器, 实现 微 博 衣 言 的 识别 。 笔 者 使 用 基于 BiLSTM + 


E 
LAM 
E docVec( d, )s 


tfidf, (w, ) + Word- 


ec(w,) 公式 (1) 
其 中 ,length(d;) 表示 文档 中 词 的 数量 ,C 是 一 
避免 梯度 消失 的 权重 调节 系数 , 耻 df,(wi) 表 示 相 应 文 
档 中 词 的 TF-IDF 权重 ,WordvVec(wi) 表 示 词 w, 在 整个 
语 料 D 中 的 向 量 。 上 述 公式 本 质 是 将 对 应 文档 中 词 的 
TF-IDF 权重 广播 到 该 词 的 词 向 量 中 ,使 得 词 向 量 包含 
上 下 文 以 及 关键 词 信息 。 通 过 TF-IDF 权重 的 广播 , 相 
同 词 在 不 同 的 文档 Ma i 
B CA der SCELERE EE 
(2) 特征 拼接 。 m 了 Word2Vec 与 训练 模型 
和 TF-IDF 关键 词 权 重 模型 以 后 ,得 到 了 谣言 中 每 个 词 
新 的 词 向 量 生 '。 利 用 LDA 模型 可 以 计算 每 条 谣言 在 
7 个 主题 的 概率 分 布 , 这 样 得 到 谣言 的 主题 分 布 向 量 ， 
这 是 一 个 7 维 向 量 。 情 感 计算 则 利用 Snownlp 计算 所 
得 的 得 分 进行 归 一 化 。 最 后 将 包含 了 这 些 特征 的 问 量 
(EL + f2 +e) 拼接 到 一 起 , 送 入 接 下 来 的 分 类 训练 模 


I ;= TEM 


DNN 网 络 的 分 类 器 模型 ,经 过 BILSTM 层 进行 特征 抽 
取 , 将 正 反 两 个 方向 的 序列 化 输出 进行 拼接 ,再 送 入 
DNN 层 与 输出 层 , 对 样本 是 否 为 谣言 进行 预测 。 其 具 
体 结构 如 图 6 所 示 : 


a > 谣言 or 非 谣言 


sigmoid 


DNN 


Rh Lh 
LSTM LSTM LSTM 
—| LSTM LSTM LSTM LSTM 
| 
| XAL k £) 


图 6 ， 微 博 谣言 识别 的 深度 网 络 结构 


91 


& 44i xt 


$865 35 58 13 Hg. 2021 年 7 月 


KME £1 2 0 B 拼接 得 到 融合 特征 向 量 X, , HI 
Xi = [f hl1o XX ，… ,Xi,… X ,Xi 的 向 量 维 
度 n=1A'l1+1 有 1+1B1。 X X, fij A BILSTM 层 得 到 
正 向 输出 与 反 向 输出 ,分 别 为 Lh = {Lh,,…,Lh,,…， 
Lh, | 与 Rh = |Rh,,…,Rh,,…,Rh,|。 将 正 向 和 反 向 输 
出 拼接 得 到 H,H=[Lh,Rh], 即 1#1=2k。 定 义 全 连接 
层 的 权 值 为 W,, WEN b, Si H = {A'e H 
"| 。 输 出 层 用 于 判断 是 否 为 谣言 ,其 权 值 为 w,, 偏 置 
为 b,, 输 出 y, 如 公式 (2) 和 公式 (3) 所 示 : 

H'-W,H«b, 
y -e(W, H' +b,) 


5 实验 及 结果 


EST 
全 实验 目标 为 微 博 中 有 关 新 冠 疫 情 的 谣言 识别 , 设 
置 为 4 个 对 照 组 分 别 检验 不 同情 况 下 的 实验 结果 以 及 
笔 各 提出 的 模型 的 性 能 ,具体 各 组 实验 如 下 : 

(1) 使 用 传统 机 器 学 习 方法 进行 谣言 识别 。 这 类 


zu 
c 


公式 (2) 
公式 (3) 


Jii LAE IE DUE ( Naive Bayes, NB) ,支持 向 量 机 


port Vector Machine, SVM ) , Jt 4$ #} ( Decision 
DT) 和 集成 学 习 (eXtreme Gradient Boosting, XG- 


CQ) 使 用 有 代表 性 的 深度 学 习 模型 进行 谣言 检 
测 受 数据 量 的 限制 ,除了 基本 的 深度 学 习 模型 卷 积 
IPARI 2& ( Convolutional Neural Networks, CNN) 以 外 ， 
还 需要 特别 的 网 络 模型 ,这 里 选择 迁移 学 习 (Transform 
Legring, TL) 模 型 和 和 生成 对 抗 网 络 ( Generative Ad- 
versarial Networks, GAN) 模型 。 

(3) 未 使 用 TF-IDF 进行 文本 增强 的 谣言 识别 。 此 
时 使 用 的 是 原始 的 预 训 练 词 向 量 妞 与 主题 特征 C US 
感 特征 B 的 融合 ,以 比较 文本 增强 的 效果 。 

(4) 使 用 TF-IDF 增强 后 的 谣言 识别 ( 即 本 文 模 
型 ) ,将 增强 后 的 词 向 量 全 "与 主题 特征 £2 .情感 特征 3 
融合 。 
5.2 实验 过 程 

实验 在 Deepin20 操作 系统 + Python3. 8 编程 环境 
下 进行 ,采用 Pytorch 深度 学 习 框 架构 建 谣言 识别 模型 
并 进行 模型 训练 。 实 验 具 体 过 程 包 括 : 

数据 预 处 理 : 采 用 jieba 分 词 器 与 哈尔滨 工业 大 学 
的 停 用 词 表 进行 分 词 和 去 除 停 用 词 ,并 在 分 词 词典 中 
加 入 "疫情 “新 冠 " 等 突 发 公共 卫生 事件 的 背景 词 。 
采用 Word2 Vec 模型 的 CBOW 算法 对 文本 进行 向 量 
化 ,将 每 个 词语 转化 为 一 个 维度 为 300 的 向 量 , 每 条 样 


本 中 的 词 向 量 求 和 平均 后 作为 初始 的 文本 特征 于 。 

利用 TF-IDF 算法 计算 词 的 重要 程度 权重 ,与 初始 
的 词 向 量 进行 点 积 ,再 进行 求 和 平均 。 将 增强 后 的 特 
征 向 量 作为 网 络 输入 ,由 于 TF-IDF 权重 与 词 向 量 点 积 
相 乘 后 产生 的 数值 极 小 ,训练 过 程 中 有 梯度 消失 ,导致 
网 络 不 收敛 , 故 加 入 权重 调节 系数 C, 可 以 有 效 克 服 该 
问题 。 最 后 利用 公式 (1) 计算 得 到 增强 的 文本 特征 向 
量 人 和 '; 使 用 谣言 文本 语 料 训练 LDA 主题 模型 ,之 后 计 
算 每 条 谣言 所 属 主题 的 概率 分 布 ,作为 文本 话题 类 别 
特征 包 ; 利 用 Snownlp 对 每 条 样本 进行 情感 得 分 的 计 
算 ,之 后 进行 z-score 归 一 化 ,将 情感 得 分 转换 到 -1 到 
1 之 间 , 从 而 得 到 样本 的 情感 特征 B s 

以 文本 特征 向 量 生 为 输入 ,分 别 利 用 传统 机 器 学 
习 模 型 NB .SVM .DT XGBoost 和 深度 学 习 模型 CNN, 
TL GAN 构建 分 类 器 。 其 中 ,迁移 学 习 TL 利用 了 文献 
[16] 的 历史 谣言 数据 集训 练 的 BiLSTM 网 络 来 构建 疫情 
谣言 的 分 类 器 。 对 抗 生 成 网 络 GAN 利用 人 工 生 成 了 3 
000 条 新 的 虚假 信息 ,通过 每 补充 500 条 生成 数据 分 别 
测试 ,结果 在 有 1 500 条 生成 数据 时 效果 好 于 其 他 情况 ， 
说 明 原 始 数据 和 生成 数据 的 平衡 对 结果 也 有 影响 。 

为 了 防止 过 拟 合 和 提高 模型 鲁 棒 性 ,采用 权重 衰 
减 方法 对 学 习 率 进行 衰减 并 在 LSTM 层 加 入 dropout 
机 制 ,模型 的 主要 参数 如 表 4 所 示 : 

表 4 实验 参数 设置 


参数 参数 值 
Epoch 20 
Dropout 0.5 
Weight_decay le-5 
Batch, size 64 
分 类 层 激活 函数 sigmoid 
学 习 率 0.01 
BiLSTM 隐藏 层 层 神经 元 个 数 200 
BiLSTM 隐藏 层 层 数 5 
DNN 全 连接 层 神经 元 个 数 100 
权重 调节 系数 C 100 
CBOW 词 向 量 维度 300 


以 文本 特征 向 量 f1 为 输入 ,分 别 加 入 主题 特征 £2 
和 情感 特征 8, 利用 BiLSTM + DNN 分 类 模型 构建 分 类 


以 增强 后 的 文本 特征 向 量 自 "为 输入 ,分 别 加 入 主 
题 特征 £2 和 情感 特征 名 ,利用 BiLSTM + DNN 分 类 模 
型 构建 分 类 器 ,这 样 与 第 3 组 实验 对 比 ,反映 词 向 量 权 
重 增强 以 后 的 结果 。BiLSTM + DNN 网 络 训 练 过 程 的 
loss 如 图 7 所 示 : 
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300 400 


7 BiLSTM + DNN 网 络 20 个 epoch 训练 的 loss 曲线 


5.3. 实验 结果 与 分 析 
在 实验 过 程 中 ,利用 五 折 交 叉 验证 方法 ,采用 召回 
A riti toRm FI 值 衡量 各 模型 性 能 ,其 中 最 重要 的 是 


召回 率 , 即 应 该 被 识别 的 谣言 有 多 大 比例 被 识别 出 来 。 
实验 结果 如 表 5 B: 


A5 突 发 公共 卫生 事件 微 博 谣言 识别 结果 


1C 实验 分 组 Model Recall Precision FI 
CO 88 1 组 :与 传统 机 器 学 习 算法 比较 NB 0.512 2 0.4627 0.486 2 
e SVM 0.547 8 0.587 0 0.566 7 
ep DT 0. 663 0 0.749 2 0.703 4 
e XGBoost 0.7914 0.721 5 0.754 8 
Co 第 2 组 :与 深度 学 习 模 型 的 比较 CNN 0.738 2 0.636 5 0.683 6 
d TL 0.828 6 0.778 1 0.802 6 
N GAN 0.861 8 0.820 6 0.840 7 
> 第 3 组 :未 进行 关键 词 加 强 fl 0.889 0 0.808 1 0.842 8 
n m f1«f2 0.865 7 0. 980 5 0.918 1 
>< fl +63 0. 897 2 0. 849 5 0. 869 5 
二 fl 404 0.895 8 0.962 2 0.927 1 
se 第 4 组 :经 过 关键 词 权重 的 加 强 f’ 0.932 8 0. 858 6 0.891 3 
- f'«m 0.910 9 0. 936 3 0.919 9 
位 "十 他 0.932 8 0. 804 0 0.8584 
f1'+ 亿 + 名 (本 文 模型 ) 0.960 2 0.970 9 0.965 4 


从 表 5 可 以 看 出 ,笔者 所 使 用 的 方法 和 模型 在 识 
别 任 务 中 有 较 明 显 的 优势 。 

从 第 1 组 实验 可 以 发 现 ,传统 的 机 器 学 习 模 型 识 
别 结果 召回 率 差别 较 大 ,集成 学 习 算法 效果 较 好 ,但 也 
不 到 80% 。 这 一 方面 是 受到 训练 数据 集 大 小 的 限制 ; 
另 一 方面 ,这 类 模型 较为 简单 ,无 法 充分 学 习 谣言 的 文 
本 特征 ,使 得 模型 对 此 类 信息 鉴别 力 较 弱 。 

从 第 2 组 实验 可 以 发 现 , 深 度 学 习 的 模型 召回 率 
有 所 提高 ,但 其 中 CNN 模型 因为 没有 数据 和 特征 优 
势 ,表现 还 不 如 传统 机 器 学 习 模 型 。 因 为 普通 谣言 数 
据 和 疫情 谣言 数据 在 文本 特征 .语言 分 布 .领域 对 象 等 
方面 有 较 大 差异 ,迁移 学 习 方法 的 召回 率 也 只 
83% 。 生 成 对 抗 学 习 结果 最 好 ,说 明 数 据 量 的 增加 可 


c 


以 提高 识别 效果 ,但 是 原始 数据 只 有 730 条 ,生成 更 多 
数据 会 打破 与 原始 数据 的 平衡 ,效果 反而 下 降 。 

从 第 3 组 实验 可 以 明显 看 出 ,加 入 主题 特征 和 情 
感 特 征 后 ,模型 的 效果 均 有 较 大 的 提升 ,其 中 的 话题 类 
别 特 征 ( 包 ) 对 准确 率 和 ff 值 的 提升 效果 较为 明显 , 情 
感 特征 3 对 召回 率 的 效果 较 好 ,而 同时 融合 两 种 特征 
的 模型 取得 的 召回 率 ,准确 率 和 Fl 值 的 整体 优势 ,说 
明 加 入 的 特征 之 间 起 到 了 一 定 的 作用 。 

从 第 4 组 实验 可 以 发 现 ,经 过 对 词 向 量 的 加 权 增 
强 以 后 ,再 融合 另外 两 组 特征 ,在 召回 率 和 Fl 值 均 取 
得 了 最 好 的 结果 ,精确 率 也 在 第 二 位 。 尤 其 是 对 谣言 
识别 最 重要 的 召回 率 , 对 比 其 他 方法 提升 非常 明显 。 
同样 ,大 部 分 实验 的 Fl 值 也 有 明显 提升 ,并 且 性 能 远 
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超 原始 词 向 量 特征 的 模型 。 说 明 词 向 量 加 权 对 文本 特 
征 的 强化 作用 ,这 样 与 其 他 特征 组 合 后 具有 更 好 的 互 
补 作用 ,达到 了 较 好 的 效果 。 

另外 ,本 文 实验 还 与 一 些 已 有 的 辟谣 平台 进行 了 
比较 ,如 中 国 互 联网 尽 谣 平台 、 微 博 尽 谣 、 科 学 辟谣 网 
等 ,但 这 些 均 为 人 工 核实 ,缺少 查证 功能 ,无 法 起 到 早 
期 发 现 谣言 和 遏制 谣言 的 效果 。 而 腾讯 新 闻 的 疫情 谣 
言 查证 平台 “较真 网 ” 则 是 根据 用 户 输入 与 官方 新 闻 


的 匹配 进行 谣言 识别 ,缺少 深度 算法 的 支撑 ,多 数 本 文 
实验 能 准确 判别 的 谣言 该 网 站 还 不 能 准确 判别 ,这 也 
说 明了 笔者 提出 的 模型 的 实用 性 。 

6 结语 


元 突 发 公共 卫生 事件 中 的 微 博 谣 言 识别 对 维系 网 络 
祥 会 稳定 具有 重要 作用 ,在 此 背景 下 所 做 的 谣言 识 
P E 
ita VOIE OE BUR E. HH FAR RA S, 
fimm 别 方法 效果 有 限 。 又 因为 受到 数据 量 的 
限制 ， 一 般 的 深度 学 习 模 型 也 很 难 发 挥 作 用 。 因 此 对 
赤 特 征 的 提取 成 为 微 博 谣言 识别 的 关键 。 笔者 在 语 
Foi 量 特征 训练 的 基础 上 ,新 加 入 话题 类 别 特征 、 情 
感 特 征 以 及 关键 词 特征 ,设计 了 基于 TF-IDF 强化 词 向 


En 合并 另外 两 类 特征 以 后 ,利用 BILSTM 
A DÈN 深度 网 络 构建 谣言 识别 模型 ,实验 结果 显示 笔 


fautor ESUAT etm aes rio 

的 阁 果 。 进 一 步 的 工作 可 以 通过 加 入 更 多 的 用 户 行为 

特 宣 .时间 序 列 特征 、 传 播 特征 以 及 发 布 者 身份 特征 

等 (四 前 来 看 这 些 特征 数据 集 还 不 够 完善 ,而 且 涉 及 太 

多 过 于 复杂 的 特征 处 理 过 程 , 效 果 和 效率 还 有 待 论 证 。 

另外 ,笔者 所 使 用 的 词 嵌 入 强化 方法 属于 词 粒度 级 别 ， 

在 未 来 的 研究 中 也 可 以 探究 不 同 粒度 上 或 不 同 预 处 理 

的 词 戏 入 强化 表示 的 方法 。 
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Weibo Rumor Identification in Public Health Emergencies 
Shi Kaiwen Liu Kan 
School of Information and Safety Engineering ,Zhongnan University of Economies and Law, Wuhan 430073 

Abstract: | Purpose/significance | In public health emergencies such as the COVID-19 epidemic, a large num- 
ber of statements about the epidemic have quickly been generated on social media on the Internet , including many ru- 
mors that endanger public mental health and affect the implementation of national policies. Detecting these remarks 
and identifying the rumors can enable the people to respond to public health emergencies correctly, and play a posi- 
ve role in maintaining social stability and network governance. | Method/process | Firstly, the confirmed rumors 
diring the epidemic were collected for in-depth analysis, and the main features of the rumor text were extracted, in- 
ding context features, topic category features, sentiment level features, keyword features, etc. ; then aiming at the 
Cproblem that the text feature expression in the text classification model was relatively single, different models were 
Ga to vectorize the extracted rumor text features, and then a rumor recognition model based on multi-feature fusion 
SE; constructed. In the construction of this model , TF-IDF was used to strengthen the word vector, so that the word 
(vector can merge the keyword feature information of the word granularity while capturing the context feature. Finally, 
Ghis paper used the BiLSTM + DNN model to classify the fused feature vectors. | Result/conclusion | The experimen- 
results show that features such as topic category and emotional level all contribute to the recognition of rumors , es- 
bccially the fusion of the strengthened word vector and other features to significantly improve the recognition accura- 
:Cy, recall rate, Fl measure, etc. The indicators all reached more than 9096 , and the effect surpassed other rumor 
recognition models, indicating that the method constructed in this article can respond well to the task of rumor recog- 

ition in the context of public health emergencies. 
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